常见问题解答 (Q&A)
本文档整理了使用 ROLL 框架时可能遇到的常见问题及其解决方案。
模型转换相关
Megatron 模型如何转成 HF 格式?
使用如下命令进行格式转换:
python mcore_adapter/tools/convert.py --checkpoint_path path_to_megatron_model --output_path path_to_output_hf_model
资源配置相关
什么是 colocate(共置)模式?
在共置模式下,多个角色(如 actor_train、actor_infer、reference)的 device_mapping 可以复用相同的 GPU 设备。例如:
actor_train:
device_mapping: list(range(0,8))
actor_infer:
device_mapping: list(range(0,8))
reference:
device_mapping: list(range(0,8))
框架底层通过资源管理机制保证了多个角色间 GPU 的复用,提高资源利用率。